Estatística Básica

Conceitos e Exemplos

Wlademir Prates

Introdução

Imagine que você acabou de ser contratado como cientista de dados para uma startup de tecnologia.

Seu primeiro projeto é analisar os dados de satisfação dos clientes para identificar padrões e melhorar os serviços oferecidos.

Vamos ver como os conceitos básicos de estatística podem te ajudar nessa missão.

Objetivos

  • Entender os conceitos básicos de estatística.
  • Aplicar esses conceitos em análises práticas de dados.
  • Preparar-se para desafios reais na carreira de ciência de dados.

Definições Básicas

  • Estatística: Ciência de coletar, organizar, analisar e interpretar dados.
  • Estatística Descritiva: Descrição e resumo dos dados.
  • Estatística Inferencial: Generalização e inferência a partir de uma amostra.

Aplicações

No seu novo projeto, você usará estatística para:

  • Analisar a satisfação dos clientes.
  • Identificar tendências e padrões.
  • Fornecer insights baseados em dados para melhorar os serviços.

Tipos de Dados

Dados Qualitativos

  • Variáveis Categóricas (ex.: feedback positivo/negativo, gênero)
qualitativas <- c("Positivo", "Negativo", "Positivo", "Negativo")
qualitativas
[1] "Positivo" "Negativo" "Positivo" "Negativo"

Dados Quantitativos

  • Variáveis Numéricas (ex.: idade dos clientes, pontuação de satisfação)
quantitativas <- c(7.8, 6.5, 8.9, 7.2)
quantitativas
[1] 7.8 6.5 8.9 7.2

A seguir veremos as principais medidas de tendência central, mas antes vale um parênteses …

Medidas Estatísticas Aplicáveis

  • As medidas de tendência central (média, mediana, moda) e dispersão (variância, desvio padrão, amplitude, IQR) são aplicáveis às variáveis quantitativas.
  • Para variáveis qualitativas, devemos focar em:
    • Distribuição de frequências: Contagem de ocorrências em cada categoria.
    • Gráficos de barras / colunas: Visualização da distribuição das categorias.
    • Medidas de associação: Como coeficiente de contingência e Cramér’s V para analisar a relação entre variáveis qualitativas.

Medidas de Tendência Central

Média

Imagine que você precisa calcular a pontuação média de satisfação dos clientes. A média é a soma dos valores dividida pelo número de observações.

notas <- c(85, 90, 78, 85, 92, 88)
mean(notas)
[1] 86.33333

Mediana

Às vezes, a média pode ser enganosa se houver valores extremos. A mediana é o valor central quando os dados estão ordenados.

median(notas)
[1] 86.5

Moda

Se você quer saber qual pontuação de satisfação é a mais comum, você precisa calcular a moda.

moda <- function(v) {
  uniqv <- unique(v)
  freq <- tabulate(match(v, uniqv))
  max_freq <- max(freq)
  if (max_freq == 1) {
    return(NA)  # Se todos os valores são únicos, não há moda
  } else {
    return(uniqv[which(freq == max_freq)])
  }
}
moda(notas)
[1] 85

Medidas de Dispersão

Variância e Desvio Padrão

Para entender a variabilidade das pontuações de satisfação, você pode calcular a variância e o desvio padrão.

  • Variância: Média dos quadrados dos desvios em relação à média
  • Desvio Padrão: Raiz quadrada da variância
variancia <- var(notas)
desvio_padrao <- sd(notas)
variancia
[1] 24.26667
desvio_padrao
[1] 4.926121

Amplitude

A amplitude te ajuda a ver a diferença entre a pontuação mais alta e a mais baixa.

amplitude <- range(notas)
amplitude_diff <- diff(amplitude)
amplitude
[1] 78 92
amplitude_diff
[1] 14

Intervalo Interquartil (IQR)

  • O Intervalo Interquartil (IQR) é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1).
  • O IQR concentra a maior parte das observações, excluindo os outliers.

Cálculo do IQR

pontuacoes <- c(85, 90, 78, 92, 88)
IQR(pontuacoes)
[1] 5

Quartis

quantile(pontuacoes)
  0%  25%  50%  75% 100% 
  78   85   88   90   92 

Como visualizar estas estatísticas?

Visualização (tradicional do R)

boxplot(pontuacoes, main="Boxplot das Pontuações", ylab="Pontuações")

Visualização (mais interessante…)

Visualização (mais interessante…) - Código

library(highcharter)

df_pontuacoes <- data.frame("Pontuações" = pontuacoes)
dat <- data_to_boxplot(df_pontuacoes, `Pontuações`, name = "Pontuações")

highchart() |>
  hc_xAxis(type = "category") |>
  hc_add_series_list(dat)

Exemplo Prático: Análise de Satisfação dos Clientes

Cálculos para Exemplo Prático

Vamos consolidar tudo isso com um exemplo prático.

Imagine que essas são as pontuações de satisfação de um pequeno grupo de clientes.

Vamos calcular as medidas de tendência central e dispersão, incluindo o IQR.

# Cálculos adicionais para o exemplo prático
media <- mean(pontuacoes)
mediana <- median(pontuacoes)
moda <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
moda_pontuacao <- moda(pontuacoes)
variancia <- var(pontuacoes)
desvio_padrao <- sd(pontuacoes)
amplitude <- range(pontuacoes)
iqr <- IQR(pontuacoes)
amplitude_diff <- diff(amplitude)

Resultados

resultados <- data.frame(
  Media = media,
  Mediana = mediana,
  Moda = moda_pontuacao,
  Variancia = variancia,
  Desvio_Padrao = desvio_padrao,
  Amplitude = amplitude_diff,
  IQR = iqr
)
resultados
  Media Mediana Moda Variancia Desvio_Padrao Amplitude IQR
1  86.6      88   85      29.8      5.458938        14   5

Interpretação dos Resultados de Satisfação dos Clientes

  • Média: 86.6 (Alta satisfação geral)
  • Mediana: 88 (Dados simétricos)
  • Moda: 85 (Valor mais frequente)
  • Desvio Padrão: 5.46 (Dispersão moderada)
  • Amplitude: 14 (Variação significativa)
  • IQR: 5 (Concentração excluindo outliers)

Conclusão

  • Alta satisfação dos clientes com alguma variação
  • Medidas ajudam a identificar áreas de melhoria e monitorar a satisfação

Encerramento e Q&A

Resumo

  • Entendemos os conceitos básicos de estatística.
  • Aprendemos a calcular medidas de tendência central e dispersão.
  • Aplicamos esses conceitos em um exemplo prático relevante para sua carreira.

Perguntas?